screenpipe — YC (S26) | AI that knows what you've seen, said, or heard. Records everything you do, say, hear 24/7, local, private, secure
ユーザーの行動を認識し、オートエージェントを構築するためのツール。
- 用途
- オートエージェント構築
- 難易度
- Easy
- コスト
- High
「multimodal」の検索結果
16 件ユーザーの行動を認識し、オートエージェントを構築するためのツール。
🤗 Transformersは、テキスト・ビジョン・音声など複雑なモデル定義をサポートするフレームワークで、インフェレンスターやトレーニングに使用できる。
データをロギング・ストーリング・クエリして視覚化できるSDKです。
SGLangは、大規模言語モデルのサービングフレームワークです。このライブラリは、高性能なサービスフレームワークで、大規模言語モデルのサービングをサポートしています。
xtunerは、超大規模MoEモデルを高速にトレーニングするためのトレーニングエンジンです。
マルチモーダルAIに適したオープンレイクハウスフォーマットです。このフォーマットでは、パレットからデータを2行のコードで変換することができ、100倍速くなります。また、ベクトルインデックスやデータバージョニングが可能です
このリポジトリでは、AIモデルの互換性を確保するためのオープンスタンダードであるONNXを提供しています。
オープンソースのAIオーケストレーションフレームワークです。LLMアプリケーションの構築に必要なパイプラインやエージェントワークフローの設計ができるようになっています。
分析システムの性能を向上するための学習モデル開発を行う。
ビデオ diffusioin trasformerは、ビデオの長さに依存しない推論能力を持っているが、この長さのエキサポレーションは実際には困難なものである。RIFLExという手法を開発し、ビデオ長さのエキサポレーション
基礎モデルの前処理を行うためのライブラリ。最小限でシームレスにスケールできる。
モデルをサービングするためのライブラリを紹介している。
このリポジトリには、CVPR 2026で発表されたポスター生成ツール「PosterGen」の公式リポジトリが含まれます。
自動変換により、モデルはテスト時に計算量を最適化し、難しいステップでより多く計算すると同時に、簡単なステップでより少ない計算を実行します。
VidCom2は、ビデオ圧縮を改善するためのPlug-and-Playのインフェレンスアクセレレーションを備えたVideo Large Language Modelsです。
Becoming a cracked AI/ML Research Engineerには、AI/ML研究者のスキルと知識を高めるための手法が紹介されています。